深度学习|三维重建：StereoDRNet

作者：safecaps | 来源：互联网 | 2023-09-15 13:18

点击上方“3D视觉工坊”，选择“星标”干货第一时间送达原文链接：https:www.sohu.coma339674840_715754一、摘要我们提出了

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

原文链接：https://www.sohu.com/a/339674840_715754

一、摘要

我们提出了一种基于卷积神经网络(CNN)的深度估计系统，该系统通过对从双目图像对中预测的深度图进行体积融合，从而得到场景的三维重建。我们提出了一种深度改进架构，它可以计算可视图的视差并预测遮挡部分，进而帮助融合系统产生几何一致的重建。我们在提出的新的代价滤波网络中利用3D扩张卷积，与现有滤波架构相比，会产生更好的滤波效果，同时将计算量减少一半。对于特征提取，我们使用Vortex Pooling架构。所提出的方法在KITTI 2012，KITTI 2015和ETH 3D数据集测试中均取得了最优秀的结果。最后，我们证明了我们的系统能够产生高质量的3D场景重建效果，其性能优于当前最先进的重建系统。

1. 新的视差改进网络

我们工作的主要动机是预测立体输入的几何一致视差图，可以直接用于基于TSDF的融合系统，如KinectFusion，用于同步跟踪和绘图。表面法线是KinectFusion类系统中融合权重计算的一个重要因素，我们观察到现有的双目重建系统（如PSMNet）产生的视差图不是几何一致的，对TSDF融合产生负面影响。为了解决这个问题，我们提出了一种新颖的改进网络，它将几何误差，光度误差和未确定的视差作为输入，并产生重新定义的视差（通过残差学习）和遮挡图。

2. 代价滤波中的3D扩张卷积

使用3D代价滤波方法的最先进的双目重建系统（如PSMNet和GC-Net）使用了过多的计算资源。而在我们的系统中，在所有三个维度（即宽度，高度和视差通道）中使用3D扩张卷积给出了更好的结果，并且计算量更少。

3. vortex pooling

我们观察到，与空间金字塔池化（在PSMNet中使用）相比，vortex pooling 提供了更好的结果。我们发现用过滤非基本真实区域的排除掩模微调我们的模型，对于获得视差预测中的锐边和细节非常有用。

二、主要算法

1.整体思路

本论文所提出的算法可以分解为特征提取，代价滤波和视差估计改进三个步骤，而不是使用通用的编码器 - 解码器CNN。算法整体的系统流程如下图所示。

2.特征提取

特征提取从一个小的共享权重Siamese网络开始，该网络将输入作为图像并将输入编码为一组特征。为了在特征映射中对局部空间信息进行编码，首先使用大小为2的卷积对输入进行下采样。本方法使用三个滤波器而不是大型的卷积，其中第一个卷积的步幅为2。为了编码更多的上下文信息，在学习的局部特征图上选择Vortex Pooling，Vortex Pooling的结构图如下图所示。除了在空间池化输出上的最后3x3卷积之外，我们的每个卷积之后都是批量标准化和RELU激活。为了使特征信息保持紧凑，在整个特征提取过程中将特征的尺寸保持为32。

3.代价体素滤波

首先通过沿宽度，高度和深度尺寸的卷积处理代价量。然后通过2的步幅进行卷积来降低代价的分辨率，然后并行地进行扩张卷积。扩张卷积滤波器的串联上的卷积用于组合从不同感受野获取的信息。

残差学习已经被证明在视差优化过程中非常有效，因此提出了一系列这样的块来迭代地改进视差预测的质量。将整个过程描述为扩张残差代价滤波，如下图所示。

4.视差估计改进

我们首先通过使用一层卷积，然后批量归一化来独立过滤左图像和重建误差以及左视差和几何误差图。随后将这些结果连接起来，进行空洞卷积，从而在不增加网络规模的情况下从更大的上下文中进行采样。我们分别使用速率为1,2,4,8,1和1的扩张。最后，使用没有ReLU或批量归一化的单个卷积来输出遮挡图O和视差残差图R。改进后的网络结构如下图所示。

三、实验

作者在整个多个数据集上测试了所提出的架构，例如SceneFlow，KITTI 2012，KITTI 2015和ETH3D。而且还展示了系统在构建室内场景的3D重建中的实用性。

在SceneFlow数据集上和PSMNet网络的对比效果如下图所示。图中顶行显示差异，底行显示EPE地图。从图中可以看出，作者所提出的网络能够恢复薄和小结构，同时在均匀区域中显示较低的误差。

下表显示了有和没有改进网络架构的定量分析。Stereo-DRNet可以在减少计算时间的同时实现显着降低端点误差。而且作者提出的代价滤波方法在计算量显著降低的情况下实现更高的准确性，证明了方法的有效性。

四、结论

本文提出了一种基于双目的3D场景重建方法，该方法使用卷积神经网络结合预测深度图来估计图像对的深度。

同时提出了一种深度改进架构，它帮助融合系统产生几何一致的重建。最后在SceneFlow数据集上的结果显示，取得了state-of-art的效果。

推荐阅读：
专辑|相机标定
专辑|点云后处理
专辑|SLAM从入门到精通
专辑|事件相机
专辑|OpenCV从理论到实践
专辑|深度学习在3D视觉上的应用
专辑|招聘与项目对接
专辑|读书笔记
专辑|学习资源&求职&编程
专辑|结构光

重磅！3DCVer-学术论文写作投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近1000+星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题

推荐阅读

get
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
get
65位高校教师接龙晒工资！给打算入高校的研究生们参考！

本文转载自：募格学术|来源：麦可思研究综合整理自小木虫论坛前有清华教授被骗千万，后有某重点高校青年教师晒出月薪900的工资条， ... [详细]

蜡笔小新 2023-10-14 11:55:45
search
SLAM优秀开源工程最全汇总

https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统，可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]

蜡笔小新 2023-10-16 11:09:06
search
论文笔记_S2D.48_2017IEEE RAL_单视图和多视图深度融合

基本情况题目：Single-viewandmulti-viewdepthfusion出处：FcilJM,ConchaA,MontesanoL,etal ... [详细]

蜡笔小新 2023-10-14 09:40:54
c语言
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
cmd
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
bit
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
数组
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
数组
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
get
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
get
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26
数组
一维和二维数组的前缀和与差分

一维和二维数组的前缀和与差分 ... [详细]

蜡笔小新 2023-10-16 15:37:00
数组
Two Sigma人均22万英镑~

近期原创文章： ... [详细]

蜡笔小新 2023-10-16 14:54:24
数组
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
数组
微信回应「10 元就能在朋友圈改定位」；谷歌官方首次提及 Android 11；Node 8.16.2 发布 | 极客头条...

微信回应「10元就能在朋友圈改定位」；谷歌官方首次提及Android11；Node8.16.2发布|极客头条,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-15 15:22:56